Can AI Match Human Experts? Evaluating LLM-Generated Feedback on Resident Scholarly Projects
Die Studie zeigt, dass ein auf LLaMA-3.1 basierendes KI-System zwar insgesamt noch nicht die Qualität menschlicher Experten bei der Bewertung von Forschungsprojekten von Ärzten in der Weiterbildung erreicht, jedoch in bestimmten Kontexten und Sicherheitsbewertungen vergleichbare oder sogar überlegene Ergebnisse liefert.